Gemma 4
コア機能
Gemma 4 モデルは、テキスト、ビジョン、音声にわたる幅広いタスクを処理します。主な機能は次のとおりです。
思考モード - 回答する前にモデルがステップバイステップで思考できる組み込みの推論モード。
長いコンテキスト - 最大 128K トークン(E2B/E4B)と 256K トークン(26B A4B/31B)のコンテキスト ウィンドウ。
画像理解 - オブジェクト検出、ドキュメント/PDF の解析、画面と UI の理解、グラフの理解、OCR(多言語対応を含む)、手書き文字認識、ポインティング。画像は、さまざまなアスペクト比と解像度で処理できます。
動画理解 - フレームのシーケンスを処理して動画を分析します。
インターリーブ マルチモーダル入力 - 単一のプロンプト内で、テキストと画像を任意の順序で自由に組み合わせます。
関数呼び出し - 構造化されたツールの使用をネイティブにサポートし、エージェント ワークフローを可能にします。
コーディング - コードの生成、補完、修正。
多言語対応 - 35 以上の言語をすぐにサポートし、140 以上の言語で事前トレーニングされています。
音声(E2B と E4B のみ) - 複数の言語にわたる自動音声認識(ASR)と音声から翻訳テキストへの翻訳。
全モデル画像入力対応
E2BとE4Bは音声・動画入力にも対応
LM StudioとかOllamaとか音声入力に対応してないからPythonからやるしかないんかな?知らんけど